Los datos se han pre-procesado y normalizado mediante el paquete minfi (versión 1.26.2). Se ha utilizado normalización funcional y se han aplicado filtros para eliminar las CpGs con p-valores de detección superiores a 0.01, así como las CpGs asociadas a los cromosomas sexuales y las asociadas a sondas “ch” y “rs”.
De manera exploratoria se ha realizado el análisis de componentes principales (PCA), tanto de manera global entre tipos de tejido (brain tissue y lymphoblastic cell lines) como entre los grupos Sporadic Alzheimer Disease y Genetic Alzheimer Disease de las muestras de líneas celulares. Los gráficos se han representado de manera tridimiensional e interactiva con los tres componentes principales. Además, se ha representado mediante heatmaps una muestra aleatoria de 5000 CpGs seleccionadas; asimismo, también se han representado los resultados de la técnica de reducción de dimensionalidad t-SNE utilizada de manera complementaria.
GRUPOS
Línea celular limfoblastoides
Grupo alzheimer
Enf. esporádica (n=5) G10_AD_esp
Enf. genética (n=6) G11_AD_gen
COMPARACIONES DE INTERÉS:
Para el análisis de metilación diferencial se han ajustado rank-based regression models incluyendo como covariables la edad y el sexo. Los p-valores se han corregido mediante False Discovery Rate (FDR). Complementariamente, se han realizado modelos de regresión beta igualmente válidos y recomendados para analizar datos de niveles de metilación (porcentaje de 0 a 1). Se han corregido igualmente los p-valores mediante FDR. Éste último método a demostrado ser más sensible a la detección de diferencias que el método no paramétrico basado en rangos, pero la cantidad de información encontrada ha necesitado ser depurada con métodos más restrictivos ya que el número de positivos mediante la regresión beta ha sido extremadamente superior al obtenido mediante la regresión basada en rangos. En consecuencia, se ha realizado un análisis de sensibilidad a través de la aplicación de métodos de penalización (regresión logística Elastic Net) incluyendo las variables sexo y edad (sin penalizar) y seleccionando los parámetros de penalización mediante validación cruzada (200 repeticiones). Por último, se realizaron comparaciones entre los grupos aplicando el test no paramétrico de Wilcoxon, el cuál no ha detectado diferencias después de corregir los p-valores en ninguna comparación. Los análisis se han realizado utilizando el software estadístico R (versión 3.5.2) y los paquetes Rfit (versión 0.23.0), betareg (versión 3.1-1), glmnet (versión 2.0-18), IlluminaHumanMethylationEPICmanifest (versión 0.3.0), NMF (versión 0.21.0), Rtsne (versión 0.15), pcaMethods (versión 1.74.0) y VennDiagram (versión 1.6.20). Los p-valores ajustados inferiores a 0.05 se han considerado estadísticamente significativos.
En el análisis de componentes principales global, se distinguen claramente los dos grupos de muestras, Brain tissue (azul) y Lymphoblastic cell lines (naranja). Se han representado los tres componentes principales, mostrándose el eje x (PC1), el eje y (PC2) y el eje z (PC3). La gran ventaja de los gráficos interactivos es que nos permiten rotar la vista del gráfico para poder visualizar mejor la posición de cada muestra. Además, si pasamos el cursor sobre los puntos (muestras) podremos identificar los valores x, y, y z de los componentes principales, así como el código de la muestra. Otra de las ventajas de estos gráficos, es que nos permite hacer capturas de imagen de la figura en la posición que más interesante consideremos. Para ello, es necesario clicar en el primer icono (con forma de cámara fotográfica) que aparece en la esquina superior derecha de la figura interactiva. Si pasamos el cursor por encima de éste, se mostrará el mensaje “Download plot as a png”. Otra opción que ofrecen estos gráficos es la de ampliar el zoom, ya sea desde el segundo icono (lupa) como desde la rueda del ratón. Existen más funcionalidades que permiten cambiar la perspectiva, sin embargo una de las más útiles es el icono que se encuentra en sexta posición (con forma de casa). Este botón nos devolverá a la vista original de la figura.
Algo a destacar de esta representación es que tres de las muestras del grupo Lymphoblastic cell lines se encuentran ligeramente desplazadas del grupo, mostrando valores más altos del componente 3 (eje Z). Éstas son: LC-20, LC-90 y LC-45646. En el grupo Brain tissue, también existen 4 muestras que se alejan ligeramente del resto de muestras del grupo en lo que respecta al eje Z (valores más bajos del componente principal 3). Estas muestras son: BK365, BK499, BK709 y BK1134.
De manera adicional a los análisis de componentes principales, se ha obtenido un heatmap del total de grupos diferenciados por colores en la barra que aparece en la parte superior del mapa de calor. Este heatmap se ha realizado a partir de una muestra aleatoria de 5000 CpGs.
Los resultados del heatmap de todas las muestras son similares a los del PCA, la diferencia entre las muestras del grupo Brain tissue y Lymphoblastic cell lines es obvia, se revela un claro patrón de diferenciación: mientras que en un grupo de CpGs, las muestras de Brain tissue están hipermetiladas (rojo), en Lymphoblastic cell lines están hipometiladas (verde), y viceversa.
Los valores de cada CpG se normalizan de manera individal para representarse en el heatmap. La escala de color que aparece en la parte derecha representa los valores tras la normalización, es decir, la escala está centrada en la media 0 (negro) y su rango va de +5 desviaciones típicas (rojo) a -5 desviaciones típicas (verde). La barra de color blanco-verde representa los valores de la variable Post Mortem delay (h).
Dado que el test no paramétrico de Wilcoxon es el menos sensible de todos los probados, no se han encontrado diferencias en ninguna CpG. La regresión beta ha encontrado diferencias en 33880 CpGs. El método de penalización Elastic Net ha seleccionado la combinación de 30 CpGs capaces de diferenciar entre Sporadic Alzheimer’s disease y Genetic Alzheimer’s disease. Son:
## [1] "cg19359071" "cg26073219" "cg16554222" "cg00213098" "cg27444614"
## [6] "cg13293266" "cg14813647" "cg02037791" "cg14069239" "cg17900356"
## [11] "cg19758372" "cg14191999" "cg06865650" "cg19568380" "cg27313776"
## [16] "cg23640897" "cg01516737" "cg13334518" "cg13944389" "cg00061313"
## [21] "cg17730149" "cg25716376" "cg11742207" "cg11391543" "cg27353640"
## [26] "cg18831134" "cg14456934" "cg13001160" "cg02375258" "cg16612402"
La rank-based regression solamente ha detectado diferencias estadísticamente significativas en 2 CpGS: cg02333792 y cg02375258. Esta última también ha sido seleccionada por el método de penalización Elastic Net.
En el heatmap aparecen representadas las 32 CpGs seleccionadas por Elastic Net y la rank-based regression que son capaces de diferenciar los dos grupos sporadic Alzheimer’s disease y genetic Alzheimer’s disease. Se observa un patrón de diferenciación muy evidente en estas CpGs seleccionadas.
El diagrama de Venn muestra que tanto las 30 CpGs seleccionadas por Elastic Net como las 2 detectadas por la rank-based regression coinciden en el listado de 33880 CpGs detectadas como estadísticamente significativas en los modelos de regresión beta. 1 de las CpGs seleccionadas por Elastic Net también ha sido detectada por la rank-based regression.
A continuación se presenta una tabla con las CpGs seleccionadas por Elastic Net y por la rank-based regression (en caso de que se haya seleccionado alguna tras ajustar los p-valores), así como la información de estas CpGs según los datos contenidos en el manifest 850k. La tabla muestra, en primer lugar, la Odds Ratio (OR) del modelo de regresión binomial del método de penalización Elastic Net; en segundo lugar, se presenta la diferencia entre los dos grupos (efecto estimado del grupo de la rank-based regression junto a su p-valor corregido) y por último, el p-valor corregido de la regresión Beta. Adicionalmente, se pueden encontrar estos resultados en el archivo manifest_cpgs_selected13.csv.
Un efecto positivo, indica mayor valor (más metilación) en el grupo Lymphoblastic cell lines-Sporadic Alzheimer’s disease que en Genetic Alzheimer’s disease.
De manera adicional, se presenta un descriptivo de las CpGs seleccionadas mediante la media (SD) y la mediana (1er, 3er cuartil) para cada uno de los grupos. Complementariamente, se puede descargar en el siguiente archivo dataset_cpgs13.csv los valores individuales de cada sujeto y cada CpG del listado seleccionado para esta comparación.
Siendo G10_AD_esp, el grupo alzheimer enfermedad esporádica y G11_AD_gen el grupo alzheimer enfermedad genética.
## Variable Grupo G10_AD_esp n = 5 Grupo G11_AD_gen n = 6
## Mean (SD) Mean (SD)
## Median (1st, 3rd Q.) Median (1st, 3rd Q.)
## cg19359071 0.11 (0.06) 0.49 (0.09)
## 0.07 (0.06, 0.17) 0.5 (0.47, 0.54)
## cg26073219 0.18 (0.09) 0.5 (0.04)
## 0.17 (0.11, 0.24) 0.5 (0.47, 0.52)
## cg16554222 0.44 (0.04) 0.56 (0.01)
## 0.45 (0.44, 0.46) 0.56 (0.56, 0.57)
## cg00213098 0.91 (0.04) 0.66 (0.06)
## 0.93 (0.88, 0.94) 0.66 (0.65, 0.69)
## cg27444614 0.11 (0.06) 0.5 (0.1)
## 0.11 (0.07, 0.11) 0.5 (0.41, 0.57)
## cg13293266 0.11 (0.03) 0.55 (0.07)
## 0.11 (0.09, 0.12) 0.56 (0.52, 0.61)
## cg14813647 0.13 (0.1) 0.56 (0.06)
## 0.1 (0.06, 0.11) 0.56 (0.55, 0.56)
## cg02037791 0.11 (0.05) 0.44 (0.06)
## 0.11 (0.07, 0.12) 0.43 (0.42, 0.47)
## cg14069239 0.05 (0.01) 0.17 (0.03)
## 0.05 (0.04, 0.05) 0.18 (0.18, 0.18)
## cg17900356 0.03 (0) 0.04 (0)
## 0.03 (0.03, 0.03) 0.04 (0.04, 0.05)
## cg19758372 0.56 (0.06) 0.14 (0.05)
## 0.58 (0.55, 0.6) 0.15 (0.11, 0.16)
## cg14191999 0.14 (0.03) 0.32 (0.03)
## 0.14 (0.14, 0.15) 0.31 (0.3, 0.32)
## cg06865650 0.21 (0.07) 0.66 (0.1)
## 0.2 (0.16, 0.28) 0.67 (0.61, 0.68)
## cg19568380 0.11 (0.04) 0.61 (0.13)
## 0.09 (0.08, 0.14) 0.58 (0.53, 0.68)
## cg27313776 0.07 (0.04) 0.29 (0.05)
## 0.06 (0.04, 0.08) 0.3 (0.28, 0.31)
## cg23640897 0.05 (0.01) 0.02 (0)
## 0.05 (0.05, 0.05) 0.02 (0.02, 0.03)
## cg01516737 0.94 (0) 0.93 (0)
## 0.94 (0.94, 0.94) 0.93 (0.93, 0.93)
## cg13334518 0.07 (0.02) 0.27 (0.04)
## 0.06 (0.06, 0.1) 0.26 (0.25, 0.29)
## cg13944389 0.78 (0.01) 0.71 (0.02)
## 0.78 (0.78, 0.78) 0.72 (0.71, 0.72)
## cg00061313 0.05 (0.01) 0.22 (0.03)
## 0.05 (0.05, 0.05) 0.23 (0.2, 0.24)
## cg17730149 0.33 (0.04) 0.18 (0.03)
## 0.33 (0.32, 0.35) 0.18 (0.18, 0.2)
## cg25716376 0.64 (0.04) 0.83 (0.04)
## 0.62 (0.62, 0.65) 0.83 (0.8, 0.85)
## cg02333792 0.84 (0.24) 0.42 (0.01)
## 0.95 (0.95, 0.95) 0.41 (0.41, 0.43)
## cg11742207 0.16 (0.04) 0.33 (0.03)
## 0.16 (0.14, 0.19) 0.33 (0.31, 0.35)
## cg11391543 0.56 (0.06) 0.23 (0.07)
## 0.58 (0.54, 0.59) 0.23 (0.22, 0.24)
## cg27353640 0.13 (0.02) 0.25 (0.01)
## 0.13 (0.12, 0.15) 0.25 (0.25, 0.26)
## cg18831134 0.07 (0.04) 0.4 (0.08)
## 0.07 (0.05, 0.07) 0.41 (0.37, 0.45)
## cg14456934 0.09 (0.04) 0.32 (0.05)
## 0.08 (0.07, 0.09) 0.33 (0.32, 0.35)
## cg13001160 0.06 (0.01) 0.35 (0.08)
## 0.07 (0.05, 0.07) 0.34 (0.31, 0.41)
## cg02375258 0.37 (0.01) 0.02 (0)
## 0.37 (0.37, 0.37) 0.02 (0.02, 0.03)
## cg16612402 0.05 (0.01) 0.22 (0.03)
## 0.04 (0.04, 0.06) 0.23 (0.19, 0.24)
Saadati, M. & Benner, A. (2014). Statistical challenges of high-dimensional methylation data. Statistics in medicine, 33(30), 5347-5357.
Kloke, J. D., & McKean, J. W. (2012). Rfit: Rank-based estimation for linear models. The R Journal, 4(2), 57-64.
R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.